Einleitung

Eine Wortwolke ist geeignet um die häufigst verwendeten Wörter eines Textes zu visualisieren und damit den Schwerpunkt eines Dokumentes abbilden zu können.
Diese App bietet die Möglichkeit die häufigsten Dokumentenformate hochzuladen und schnell zu visualisieren.
Dazu existieren drei verschiedene Visualisierungsarten

Optimiert für Firefox

Wortwolken

Textwolken

Bildwolken

Anleitung

Es bestehen mehrere Möglichkeiten der Visualisierung.
Auch wenn es viele Anpassungsmöglichkeiten gibt, ist das Erstellen einer Wortwolke einfach gehalten.
Notwendig ist lediglich:

  • Das Hochladen eines Dokumentes (valide Formate: PDF, TXT, HTML, RTF, DOCX, DOC)

Das Speichern der Wortwolke ist möglich durch Rechtsklick > Bild speichern unter.

Weitere Gestaltungsmöglichkeiten sind abhängig von der ausgewählten Darstellungsform.

Wortwolken

Notwendig: Upload eines Dokumentes.

Unter Optionen kann die Dokumentensprache geändert werden (deutsch ist als Standard vorbelegt) sowie die Stammformreduktion aktiviert werden.

Anzahl der Wörter

Begrenzt die Anzahl der verwendeten Wörter pro Wolke. Dabei entspricht die Voreinstellung 100 = 100% der im Text vorhandenen Wörter. 10% entspricht den 10% der Wörter, die am häufigsten auftauchen.

Schriftgröße

Die Schriftgröße verändert die relative Größe der Wörter zueinander. Je größer dieser Wert, desto mehr Platz benötigt die daraus resultierende Wortwolke.

Schriftart

Verändert die Schriftart der Wörter.

Schriftfarbe

Verändert die Farbe der Wörter. Vorhanden sind drei Kategorien:

  1. einfarbig,
  2. NRW-Design und
  3. bunt.

Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.
Mehrfachselektion ist möglich. Zum Entfernen einer gewählten Farbe, diese markieren und mit der Entfernen-Taste oder der Löschen-Taste entfernen.
Die Farben der Kategorie bunt nutzen entweder eine dunkle oder helle Farbpalette.

Info: Sollte die Schriftfarbe der Hintergrundfarbe entsprechen, können Wörter verborgen bleiben.

Hintergrund

Verändert die Farbe des Hintergrunds. Vorhanden sind zwei Kategorien:

  1. einfarbig,
  2. NRW-Design.

Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.

Info: Sollte die Schriftfarbe der Hintergrundfarbe entsprechen, können Wörter verborgen bleiben.

Form

verändert die Form in der die Wortwolke dargestellt wird.
Mögliche Formen sind:

  • Kreis (Standard)
  • Herz
  • Diamant
  • Karo
  • Dreieck
  • Pentagon

Info: Ist die Leinwandgröße zu klein, kann es sein, dass die Form nicht korrekt dargestellt wird.

Leinwandgröße

Verändert die Leinwandgröße der Wortwolke. Einheiten sind in Pixel.
Sollten sehr viele Wörter oder die Schriftgröße hoch sein, muss die Leinwandgröße dementsprechend angepasst werden.

Textwolken

Text: Was ihr wollt, Shakespeare

Text: Was ihr wollt, Shakespeare

Darstellung in Form von Textwolken.

Sollte die Darstellung nicht funktionieren, bitte unterschiedliche Parameter testen.

Notwendig: Upload eines Dokumentes und Eingabe eines Wortes.

Mögliche Parameter:

Anzahl Wörter

Begrenzt die Anzahl der verwendeten Wörter pro Wolke. Dabei entspricht die Voreinstellung 100 = 100% der im Text vorhandenen Wörter. 10% entspricht den 10% der Wörter, die am häufigsten auftauchen.

Wort

Wort eingeben, welches als Form genutzt werden soll.
Möglich sind Wörter, Zahlen und auch Unicode-Emojis.
Bestätigen mit Enter oder dem OK-Button. Unter Umständen kann die Generierung einige Zeit benötigen. Funktioniert am Besten mit dem Firefox-Browser.
Nach Eingabe des Wortes bitte die Leinwandgröße ändern!

Leinwandgröße

Verändert die Leinwandgröße der Wortwolke. Einheiten sind in Pixel.
Nach Eingabe des Wortes bitte die Leinwandgröße ändern! Sollten sehr viele Wörter oder die Schriftgröße hoch sein, muss die Leinwandgröße dementsprechend angepasst werden.

Schriftfarbe

Verändert die Farbe der Wörter. Vorhanden sind drei Kategorien:

  1. einfarbig,
  2. NRW-Design und
  3. bunt.

Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.
Mehrfachselektion ist möglich. Zum Entfernen einer gewählten Farbe, diese markieren und mit der Entfernen-Taste oder der Löschen-Taste entfernen.
Die Farben der Kategorie bunt nutzen entweder eine dunkle oder helle Farbpalette.

Info: Sollte die Schriftfarbe der Hintergrundfarbe entsprechen, können Wörter verborgen bleiben.

Hintergrund

Verändert die Farbe des Hintergrunds. Vorhanden sind zwei Kategorien:

  1. einfarbig,
  2. NRW-Design.

Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.

Info: Sollte die Schriftfarbe der Hintergrundfarbe entsprechen, können Wörter verborgen bleiben.

Bildwolken

Text: Landesverfassung NRW

Text: Landesverfassung NRW

Wörter lassen sich in Form von anderen Bildern darstellen. Notwendig: Upload eines Dokumentes und Upload einer Masken-Datei. Verwendbar sind alle Bilddateien, die folgende Merkmale aufweisen:

  • Schwarz-Weiß-Format
    Auf der schwarzen Fläche des Bildes werden die Wörter dargestellt. Durch Bildbearbeitung in
    Paint (Anleitung),
    Pain.NET (Anleitung) oder
    GIMP (Anleitung)
    können so schnell geeignete Masken generiert werden

  • Bildformat muss PNG sein

  • ausreichende Anzahl an Wörtern im Dokument

Anzahl Wörter

Begrenzt die Anzahl der verwendeten Wörter pro Wolke. Dabei entspricht die Voreinstellung 100 = 100% der im Text vorhandenen Wörter. 10% entspricht den 10% der Wörter, die am häufigsten auftauchen.

Leinwandgröße

Verändert die Leinwandgröße der Wortwolke. Einheiten sind in Pixel. Sollte die Darstellung nicht optimal sein, bitte die Leinwandgröße ändern.

Schriftfarbe

Verändert die Farbe der Wörter. Vorhanden sind drei Kategorien:

  1. einfarbig,
  2. NRW-Design und
  3. bunt.

Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.
Mehrfachselektion ist möglich. Zum Entfernen einer gewählten Farbe, diese markieren und mit der Entfernen-Taste oder der Löschen-Taste entfernen.
Die Farben der Kategorie bunt nutzen entweder eine dunkle oder helle Farbpalette.

FAQ

Häufig gestellte Fragen und Probleme.

Ist die Nutzung wirklich umsonst?

Kurze Antwort: JA
Die verwendeten Bibliotheken verwenden Lizenzen die die Nutzung kostenlos ermöglichen.

Meine Wortwolke wird nicht angezeigt!

Die App funktioniert am Besten mit dem Mozilla Firefox Browser.
Sollten Änderungen der Parameter nicht das gewünschte Resultat bringen, bitte die Leinwandgröße ändern.

Wie kann ich die Wortwolken speichern?

Rechtsklick > Speichern Unter > Bildname.png
Siehe Einleitung.

Was geschieht mit meinen Daten?

Für jeden Aufruf der App wird eine eigene Instanz der App gestartet. Die Apps auf dem Amazon Server sind durch einen eigenen Container voneinander getrennt.
Durch das Schließen der App werden die hochgeladenen Informationen gelöscht. Tatsächlich werden die Dateien nicht auf einen Server hochgeladen, sondern in einem spziellen Pfad auf dem eigenen Rechner abgelegt (temp-Ordner). Dadurch kann die App dann die Dokumente lesen.
Weitere Infos zur Datensicherheit hier.
Bei Bedarf kann die App auch lokal auf eigenen Servern gehostet werden. Dazu bitte das Github Repo nutzen.

Methodik

Eine Beschreibung der verwendeten Methodik der Aufbereitung der Dokumente sowie der Darstellung der Wortwolken. Quellcode ist im Github repo zu finden.

Verarbeitung der Dokumente

Die Wortwolken bestehen aus den einzigartigen Wörtern eines Dokumentes.
Dabei werden Dokumente des Typs: PDF, TXT, HTML, RTF, DOCX und DOC akzeptiert. Die Dateien werden bereinigt (z.B. Entfernung von doppelten Leerzeichen, Anführungszeichen oder Zeilenumbrüche). Sollte die Option der Stammformreduktion ausgewählt werden, findet ein Word-Stemming statt. Dabei werden Wörter auf ihre Stammform reduziert. Angewandt wird der Porter-Stemmer-Algorithmus.
Zum Beispiel:

Laufen,lief,liefe --> Lauf, lief, lief
Entdeckungen, Entdeckung --> Entdeckung, Entdeckung

Die Daten werden so wenig wie möglich verändert, allerdings ist es notwendig bestimmte “Füllwörter” sogenannte Stoppwörter. Darunter fallen Wörter, die häufig auftreten und für den Informationsverständnis eines Textes unerheblich sind. Die verwendeten Stoppwörter sind von der Auswahl der Dokumentsprache abhängig.
Zum Beispiel:

Sprache Wörter
deutsch dass, und, weil, zwar
englisch a, an, the, and, but

Das tm-Package bringt eine eigene Liste an sogenannten stopwords() mit sich, die ich derart angepasst habe, dass ich zusätzlich zu den bereits vorhanden stopwords() diese um großgeschriebene Wörter ergänzt habe. Eine Übersicht aller Stoppwörter ist im Abschnitt Stoppwörter zu finden.

Interpunktion wird entfernt.
Abschließend werden die jeweiligen Wörter gezählt. Das Ergebnis der Analyse wird zudem in einer Tabelle dargestellt.

Generierung der Wortwolken

Die Visualisierung erfolgt in Form von Wortwolken (Wordclouds). Hierzu wird das package wordclouds2 verwendet.

Die Schriftgröße der einzelnen Wörter verhält sich proportional zur Quadratwurzel der Anzahl der Nennung. Damit ist die Fläche der Buchstaben proportional zum Quadrat der Anzahl der Nennung.

\[ F = \sqrt(Wort_n) \]

Kontakt

Schreibe mir!
Probleme und Bugs gerne per E-Mail oder als Push Request via Github.

Lizenz

Die App NRWölkchen verwendet zur Generierung der Wortwolken das R-Package wordclouds2, die unter der GPL-2-Lizenz veröffentlicht wurde. Im Hintergrund arbeitet die Javascript-Bibliothek wordcloud2.js, die unter MIT-Lizenz veröffentlicht wurde.
Damit ist die Verwendung kostenfrei.

Stoppwörter

Aus den Dokumenten entfernte Wörter nach ausgewählter Sprache:

Annex

Dawei Lang (2020). wordcloud2: Create Word Cloud by htmlWidget. R package version 0.2.2. https://github.com/lchiffon/wordcloud2

R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.

Ingo Feinerer and Kurt Hornik (2019). tm: Text Mining Package. R package version 0.7-7. https://CRAN.R-project.org/package=tm

Milan Bouchet-Valat (2020). SnowballC: Snowball Stemmers Based on the C ‘libstemmer’ UTF-8 Library. R package version 0.7.0. https://CRAN.R-project.org/package=SnowballC

Hadley Wickham, Romain François, Lionel Henry and Kirill Müller (2020). dplyr: A Grammar of Data Manipulation. R package version 0.8.4. https://CRAN.R-project.org/package=dplyr

Rinker, T. W. (2018). textreadr: Read Text Documents into R version 0.9.0. Buffalo, New York. http://github.com/trinker/textreadr

Winston Chang, Joe Cheng, JJ Allaire, Yihui Xie and Jonathan McPherson (2020). shiny: Web Application Framework for R. R package version 1.4.0.2. https://CRAN.R-project.org/package=shiny

Winston Chang (2018). shinythemes: Themes for Shiny. R package version 1.1.2. https://CRAN.R-project.org/package=shinythemes

Winston Chang and Barbara Borges Ribeiro (2018). shinydashboard: Create Dashboards with ‘Shiny’. R package version 0.7.1. https://CRAN.R-project.org/package=shinydashboard

Victor Perrier, Fanny Meyer and David Granjon (2020). shinyWidgets: Custom Inputs Widgets for Shiny. R package version 0.5.1. https://CRAN.R-project.org/package=shinyWidgets

Xie Y, Cheng J, Tan X (2020). DT: A Wrapper of the JavaScript Library ‘DataTables’. R package version 0.12. https://CRAN.R-project.org/package=DT.